2-Apache Hadoop

hadoop离线day02--Apache Hadoop


今日课程学习目标

了解Hadoop发展历史、生态圈
掌握Hadoop集群架构、角色
掌握Hadoop集群分布式安装部署
掌握Job HistoryServer功能
理解HDFS垃圾桶机制

今日课程内容大纲

#Apache Hadoop入门
	介绍概念  
		狭义上hadoop指什么  指软件
        广义上hadoop指什么  指生态圈
	hadoop起源
	hadoop特性优点
#Apache Hadoop搭建
	hadoop集群:主从架构
		分为两个集群,两个集群物理上在一起,逻辑上分离
			hdfs集群 
			yarn集群
	集群角色 集群规划
    集群配置
    format初始化
    启停脚本
    webUI页面
	hadoop初体验   现象与疑惑 后续学习方向
#Apache hadoop辅助功能
	jobhistory服务 查看历史执行记录
	文件系统垃圾桶机制 回收站

知识点01:Apache Hadoop--概述与起源发展

1.1、Hadoop介绍

1.2、Hadoop起源发展


知识点02:Apache Hadoop--特性优点(分布式、通用、简单易用)


知识点03:Apache Hadoop--发行版本与自身版本发展

3.1、发行版本

3.2、Hadoop本身版本变化


知识点04:Apache Hadoop--集群架构与集群角色介绍


知识点05:Apache Hadoop--集群部署--Hadoop安装部署模式


知识点06:Apache Hadoop--集群部署--了解源码编译

https://archive.apache.org/dist/

Apache软件基金会的所有软件所有版本的下载地址.


知识点07:Apache Hadoop--集群部署--集群规划


知识点08:Apache Hadoop--集群部署--服务器基础环境准备

详细安装步骤参考课程资料:

《Python+大数据:hadoop离线阶段\02--Apache Hadoop\2、软件\hadoop-3.3.0\Hadoop3.3.0Linux编译安装.md》

8.1、服务器基础环境准备

ip、主机名
hosts映射 别忘了windows也配置
防火墙关闭
时间同步
免密登录  node1---->node1 node2 node3
JDK安装

8.2、安装包目录结构

#上传安装包到/export/server 解压

 bin    #hadoop核心脚本 最基础最底层脚本
 etc    #配置目录
 include
 lib
 libexec
 LICENSE.txt
 NOTICE.txt
 README.txt
 sbin  #服务启动 关闭 维护相关的脚本
 share #官方自带实例  hadoop相关依赖jar

知识点09:Apache Hadoop--集群部署--配置文件详解

官网文档:https://hadoop.apache.org/docs/r3.3.0/


知识点10:Apache Hadoop--集群部署--scp同步、环境变量配置


知识点11:Apache Hadoop--集群部署--namenode format操作


知识点12:Apache Hadoop--集群启停--命令与状态日志查看

12.1、单节点单进程逐个手动启动

12.2、脚本一键启动

12.3、集群进程确认和错误排查


知识点13:Apache Hadoop--Web UI页面


知识点14:Apache Hadoop--初体验

14.1、初体验之HDFS

14.2、体验之MapReduce+yarn


知识点15:Apache Hadoop--jobhistory服务配置与功能


知识点16:Apache Hadoop--HDFS垃圾桶机制


今日作业


Hadoop配置文件参考